## 'data.frame': 4898 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1 Min. : 3.800 Min. :0.0800 Min. :0.0000
## 1st Qu.:1225 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700
## Median :2450 Median : 6.800 Median :0.2600 Median :0.3200
## Mean :2450 Mean : 6.855 Mean :0.2782 Mean :0.3342
## 3rd Qu.:3674 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900
## Max. :4898 Max. :14.200 Max. :1.1000 Max. :1.6600
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.600 Min. :0.00900 Min. : 2.00
## 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00
## Median : 5.200 Median :0.04300 Median : 34.00
## Mean : 6.391 Mean :0.04577 Mean : 35.31
## 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00
## Max. :65.800 Max. :0.34600 Max. :289.00
## total.sulfur.dioxide density pH sulphates
## Min. : 9.0 Min. :0.9871 Min. :2.720 Min. :0.2200
## 1st Qu.:108.0 1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100
## Median :134.0 Median :0.9937 Median :3.180 Median :0.4700
## Mean :138.4 Mean :0.9940 Mean :3.188 Mean :0.4898
## 3rd Qu.:167.0 3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500
## Max. :440.0 Max. :1.0390 Max. :3.820 Max. :1.0800
## alcohol quality
## Min. : 8.00 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.40 Median :6.000
## Mean :10.51 Mean :5.878
## 3rd Qu.:11.40 3rd Qu.:6.000
## Max. :14.20 Max. :9.000
##
## 3 4 5 6 7 8 9
## 20 163 1457 2198 880 175 5
评分标准为0-10分,但本数据集中样品的质量评分在3至9之间,大部分样品的评分在5至7之间,其中评分为6的样品最多, 有20个样品的评分为3,评分较差,另有5个样品的评分为9,评分较高。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.51 11.40 14.20
乙醇是酒最主要的成分, 样品中乙醇含量(体积比)在8.00%和14.20%之间。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.720 3.090 3.180 3.188 3.280 3.820
样品的pH值在2.72至3.82之间,均呈酸性,接近正态分布。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.800 6.300 6.800 6.855 7.300 14.200
样品的非挥发性酸含量平均值为6.855 g/dm^3。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0800 0.2100 0.2600 0.2782 0.3200 1.1000
挥发性酸含量在0.08 g/dm^3至1.10 g/dm^3之间。
查阅资料得知,食品中总酸含量为挥发性酸和非挥发性酸含量总和,添加新变量总酸(total.acid)并进行探索。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.110 6.570 7.070 7.133 7.590 14.470
样品中总酸含量平均值为7.133 g/dm^3。
食品中总酸含量与pH值并不对等,但应该有一定关联,后续工作可以尝试探索。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.2700 0.3200 0.3342 0.3900 1.6600
## X fixed.acidity volatile.acidity citric.acid residual.sugar
## 746 746 7.4 0.20 1.66 2.1
## 3153 3153 7.6 0.25 1.23 4.6
## chlorides free.sulfur.dioxide total.sulfur.dioxide density pH
## 746 0.022 34 113 0.99165 3.26
## 3153 0.035 51 294 0.99018 3.03
## sulphates alcohol quality total.acid
## 746 0.55 12.2 6 7.60
## 3153 0.43 13.1 6 7.85
大部分样品的柠檬酸含量接近正态分布,有2个样品的柠檬酸含量明显高于其他样品。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.700 5.200 6.391 9.900 65.800
## X fixed.acidity volatile.acidity citric.acid residual.sugar
## 2782 2782 7.8 0.965 0.6 65.8
## chlorides free.sulfur.dioxide total.sulfur.dioxide density pH
## 2782 0.074 8 160 1.03898 3.39
## sulphates alcohol quality total.acid
## 2782 0.69 11.7 6 8.765
有1个样品的糖分含量高达65.8 g/dm^3,可能属于异常值。
糖分含量分布呈右偏斜,对糖分含量进行对数转换后作图。
对数转换后,大致呈双峰正态分布, 可以看出样品残余糖分含量差别较大。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
氯化物含量平均值约为0.0458 g/dm^3。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.4100 0.4700 0.4898 0.5500 1.0800
硫酸盐含量平均值为0.49 g/dm^3。
二氧化硫作为食品添加剂被添加到葡萄酒中,具有保鲜、防腐、抗氧化的作用。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 34.00 35.31 46.00 289.00
## X fixed.acidity volatile.acidity citric.acid residual.sugar
## 4746 4746 6.1 0.26 0.25 2.9
## chlorides free.sulfur.dioxide total.sulfur.dioxide density pH
## 4746 0.047 289 440 0.99314 3.44
## sulphates alcohol quality total.acid
## 4746 0.64 10.5 3 6.36
游离二氧化硫平均值为35.31 mg/dm^3, 有1个样品的游离二氧化硫含量高达289 mg/dm^3,其品质评分为3分,可能是由于游离二氧化硫含量过高对嗅觉有刺激,导致感官评价不佳。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 108.0 134.0 138.4 167.0 440.0
## X fixed.acidity volatile.acidity citric.acid residual.sugar
## 1418 1418 8.6 0.55 0.35 15.55
## 4746 4746 6.1 0.26 0.25 2.90
## chlorides free.sulfur.dioxide total.sulfur.dioxide density pH
## 1418 0.057 35.5 366.5 1.00010 3.04
## 4746 0.047 289.0 440.0 0.99314 3.44
## sulphates alcohol quality total.acid
## 1418 0.63 11.0 3 9.15
## 4746 0.64 10.5 3 6.36
编号为4746的样品总二氧化硫含量为440 g/dm^3,与游离二氧化硫最高的是同一个样品。
结合资料,创建新变量非游离二氧化硫(fixed.sulfur.dioxide), 探究其分布情况。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.0 78.0 100.0 103.1 125.0 331.0
非游离二氧化硫平均值为103.1 mg/dm^3。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9917 0.9937 0.9940 0.9961 1.0390
由图中看出样品的密度分布较集中, 平均为0.994 g/cm^3, 放缩坐标轴使绘图更直观。
葡萄酒样品密度整体来说比较稳定。
探索各变量之间是否有一定关联。
借助散点图矩阵探索各变量之间的关系。
由散点矩阵图看到,残余糖分和密度相关系数为0.839,乙醇和密度的相关系数为-0.78。
密度与品质的相关系数为-0.307,乙醇与品质的相关系数为0.436,值得进一步探索。
此外,总酸和非挥发性酸之间相关系数为0.993,总二氧化硫和非游离二氧化硫之间相关系数为0.922,但由于总酸和非游离二氧化硫都是通过原有变量进行计算而创建的新变量,与原有变量之间呈现出强相关性并无太大意义。
添加拟合线,调整坐标轴范围,聚焦需要观察的区域。
##
## Pearson's product-moment correlation
##
## data: white_wine$residual.sugar and white_wine$density
## t = 107.87, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8304732 0.8470698
## sample estimates:
## cor
## 0.8389665
残余糖分越多的葡萄酒,其密度也相应越大,两者相关系数达0.839。
调整数据点透明度,添加拟合线,聚焦需要观察的区域。
##
## Pearson's product-moment correlation
##
## data: white_wine$alcohol and white_wine$density
## t = -87.255, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7908646 -0.7689315
## sample estimates:
## cor
## -0.7801376
乙醇和密度相关系数为-0.78。葡萄酒最主要的成分为水和乙醇,乙醇密度小于水,随着乙醇比例增大,酒液整体密度逐渐变小,所以两者呈负相关也是符合常理的。
##
## Pearson's product-moment correlation
##
## data: white_wine$total.acid and white_wine$pH
## t = -33.116, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.4503932 -0.4046240
## sample estimates:
## cor
## -0.4277827
大致可看出总酸度越大,pH值越低的趋势,两者相关性并不强是因为pH值反映的是游离的氢离子的浓度,而总酸度对应的是液体中所有的酸。
本次EDA分析最重要目标是探究各理化指标对品质评分的关系,因此接下来将围绕品质评分进行进一步探索。
上图展示品质评分与乙醇含量的关系,增加抖动并叠加箱线图使数据点分布情况展示更加清晰。
##
## Pearson's product-moment correlation
##
## data: white_wine$quality and white_wine$alcohol
## t = 33.858, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4126015 0.4579941
## sample estimates:
## cor
## 0.4355747
综合来看,乙醇含量越高的葡萄酒,其品质评分也越高。
##
## Pearson's product-moment correlation
##
## data: white_wine$quality and white_wine$volatile.acidity
## t = -13.891, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2215214 -0.1676307
## sample estimates:
## cor
## -0.194723
总体来看,挥发性酸含量较低的样品,品质评分较高,这可能是由于挥发出的酸性气味会影响嗅觉感官。
##
## Pearson's product-moment correlation
##
## data: white_wine$quality and white_wine$total.acid
## t = -9.6284, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.1637012 -0.1087283
## sample estimates:
## cor
## -0.1363197
总酸量较高的葡萄酒,其品质评分稍低,可能是因为太酸使口感变差。
##
## Pearson's product-moment correlation
##
## data: white_wine$quality and white_wine$fixed.sulfur.dioxide
## t = -15.62, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2443831 -0.1910269
## sample estimates:
## cor
## -0.2178678
相对来说,非游离二氧化硫含量高的葡萄酒品质评分较低。
##
## Pearson's product-moment correlation
##
## data: white_wine$quality and white_wine$citric.acid
## t = -0.6444, df = 4896, p-value = 0.5193
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.03720595 0.01880221
## sample estimates:
## cor
## -0.009209091
柠檬酸含量与品质评分之间较难看出规律。
##
## Pearson's product-moment correlation
##
## data: white_wine$quality and white_wine$residual.sugar
## t = -6.8603, df = 4896, p-value = 7.724e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.12524103 -0.06976101
## sample estimates:
## cor
## -0.09757683
大部分样品含糖量较低,残留糖量与品质评分之间较难看出联系。
##
## Pearson's product-moment correlation
##
## data: white_wine$quality and white_wine$chlorides
## t = -15.024, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2365501 -0.1830039
## sample estimates:
## cor
## -0.2099344
葡萄酒中氯化物(氯化钠)含量越高,品质评分越低。
##
## Pearson's product-moment correlation
##
## data: white_wine$quality and white_wine$sulphates
## t = 3.7613, df = 4896, p-value = 0.000171
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.02571007 0.08156172
## sample estimates:
## cor
## 0.05367788
较难看出硫酸盐含量与葡萄酒品质评分之间的规律。
对于多个变量之间的关系,我有两个较感兴趣的探索方向,一是各化学成分与密度之间的关系,二是能产生独特味道的成分与品质评分之间的关系,接下来分别进行探索。
乙醇和密度有密切关系,将乙醇作为分类变量。
## 0% 25% 50% 75% 100%
## 8.0 9.5 10.4 11.4 14.2
## (7.5,9.5] (9.5,10.4] (10.4,11.4] (11.4,14.2]
## 1436 1137 1190 1135
可以看到乙醇含量高的样品密度往往较低,非游离二氧化硫则与密度呈正相关。
整体而言,氯化物含量越高的样品密度越大。
由上图可以看出,乙醇含量高的样品,残余糖分往往较少,而且密度相对较低。
葡萄酒是通过发酵产生的,随着发酵的进行,糖分逐渐减少,发酵产物乙醇逐渐增多,葡萄酒中乙醇的比例上升,葡萄酒的密度随之下降,上图较好地展现了发酵过程中糖、乙醇、密度变化的规律。
当然,葡萄酒中各类化学成分应该都会葡萄酒密度产生一定影响,非气态化学成分包括非挥发性酸、残余糖分、氯化物、硫酸盐、乙醇和非游离二氧化硫,尝试构建线性模型进行验证。
##
## Call:
## lm(formula = density ~ fixed.acidity + residual.sugar + chlorides +
## sulphates + alcohol + fixed.sulfur.dioxide, data = white_wine)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.0035787 -0.0004155 -0.0000986 0.0003157 0.0240678
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.980e-01 1.705e-04 5854.022 < 2e-16 ***
## fixed.acidity 5.266e-04 1.246e-05 42.277 < 2e-16 ***
## residual.sugar 3.521e-04 2.351e-06 149.750 < 2e-16 ***
## chlorides 3.087e-03 5.124e-04 6.024 1.83e-09 ***
## sulphates 1.970e-03 9.213e-05 21.380 < 2e-16 ***
## alcohol -1.103e-03 1.058e-05 -104.195 < 2e-16 ***
## fixed.sulfur.dioxide 6.038e-06 3.428e-07 17.617 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0007262 on 4891 degrees of freedom
## Multiple R-squared: 0.9411, Adjusted R-squared: 0.941
## F-statistic: 1.303e+04 on 6 and 4891 DF, p-value: < 2.2e-16
各成分均显示出强显著性,R^2为0.941,p值极小,该结果符合预期。
在双变量探索部分发现乙醇与品质有一定关联,而密度、残余糖分、非游离二氧化硫、氯化物又与乙醇有一定关联,以此为主要思路进行延伸探索。
从数据点的分布情况来看,密度、残余糖分、非游离二氧化硫、氯化物均在一定程度上与乙醇呈负相关,与品质评分似乎也均呈负相关,总体来说关系不是非常明确。
考虑到感官评分会受到很多因素的影响,尝试使用所有的理化指标构建多元线性模型,探索对葡萄酒品质的影响。
##
## Calls:
## mo1: lm(formula = quality ~ density, data = white_wine)
## mo2: lm(formula = quality ~ density + alcohol, data = white_wine)
## mo3: lm(formula = quality ~ density + alcohol + residual.sugar, data = white_wine)
## mo4: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity,
## data = white_wine)
## mo5: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity +
## volatile.acidity, data = white_wine)
## mo6: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity +
## volatile.acidity + citric.acid, data = white_wine)
## mo7: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity +
## volatile.acidity + citric.acid + chlorides, data = white_wine)
## mo8: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity +
## volatile.acidity + citric.acid + chlorides + free.sulfur.dioxide,
## data = white_wine)
## mo9: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity +
## volatile.acidity + citric.acid + chlorides + free.sulfur.dioxide +
## total.sulfur.dioxide, data = white_wine)
## mo10: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity +
## volatile.acidity + citric.acid + chlorides + free.sulfur.dioxide +
## total.sulfur.dioxide + pH, data = white_wine)
## mo11: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity +
## volatile.acidity + citric.acid + chlorides + free.sulfur.dioxide +
## total.sulfur.dioxide + pH + sulphates, data = white_wine)
##
## ==================================================================================================================================================================================
## mo1 mo2 mo3 mo4 mo5 mo6 mo7 mo8 mo9 mo10 mo11
## ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
## (Intercept) 96.277*** -22.492*** 90.313*** 77.152*** 52.814*** 52.958*** 51.392*** 50.901*** 49.144*** 118.471*** 150.193***
## (4.003) (6.165) (12.374) (14.178) (13.739) (13.765) (13.802) (13.760) (14.279) (18.187) (18.804)
## density -90.942*** 24.728*** -87.886*** -74.565*** -49.874*** -50.021*** -48.356*** -48.108*** -46.328** -118.102*** -150.284***
## (4.027) (6.079) (12.317) (14.170) (13.732) (13.759) (13.801) (13.759) (14.291) (18.448) (19.075)
## alcohol 0.360*** 0.246*** 0.260*** 0.310*** 0.310*** 0.306*** 0.313*** 0.313*** 0.231*** 0.193***
## (0.015) (0.018) (0.020) (0.019) (0.019) (0.019) (0.019) (0.019) (0.024) (0.024)
## residual.sugar 0.053*** 0.049*** 0.045*** 0.045*** 0.044*** 0.041*** 0.040*** 0.069*** 0.081***
## (0.005) (0.006) (0.005) (0.005) (0.005) (0.005) (0.006) (0.007) (0.008)
## fixed.acidity -0.029 -0.047** -0.048** -0.050** -0.042** -0.042** 0.042* 0.066**
## (0.015) (0.015) (0.015) (0.015) (0.015) (0.015) (0.021) (0.021)
## volatile.acidity -2.081*** -2.078*** -2.057*** -1.994*** -1.984*** -1.910*** -1.863***
## (0.109) (0.110) (0.111) (0.112) (0.114) (0.114) (0.114)
## citric.acid 0.017 0.035 -0.005 -0.003 0.047 0.022
## (0.095) (0.096) (0.096) (0.096) (0.096) (0.096)
## chlorides -0.819 -0.923 -0.920 -0.376 -0.247
## (0.544) (0.543) (0.543) (0.548) (0.547)
## free.sulfur.dioxide 0.004*** 0.004*** 0.004*** 0.004***
## (0.001) (0.001) (0.001) (0.001)
## total.sulfur.dioxide -0.000 -0.000 -0.000
## (0.000) (0.000) (0.000)
## pH 0.646*** 0.686***
## (0.106) (0.105)
## sulphates 0.631***
## (0.100)
## ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
## R-squared 0.094 0.192 0.210 0.211 0.265 0.265 0.266 0.270 0.271 0.276 0.282
## adj. R-squared 0.094 0.192 0.210 0.210 0.265 0.265 0.265 0.269 0.269 0.275 0.280
## sigma 0.843 0.796 0.787 0.787 0.759 0.760 0.759 0.757 0.757 0.754 0.751
## F 509.911 583.290 434.085 326.640 353.579 294.596 252.899 226.580 201.396 186.351 174.344
## p 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
## Log-likelihood -6111.983 -5831.127 -5776.812 -5775.006 -5599.094 -5599.079 -5597.945 -5582.289 -5582.183 -5563.494 -5543.740
## Deviance 3478.689 3101.773 3033.737 3031.500 2821.384 2821.367 2820.061 2802.090 2801.968 2780.668 2758.329
## AIC 12229.967 11670.255 11563.624 11562.012 11212.189 11214.158 11213.891 11184.579 11186.366 11150.988 11113.480
## BIC 12249.456 11696.241 11596.107 11600.991 11257.665 11266.130 11272.360 11249.545 11257.828 11228.947 11197.936
## N 4898 4898 4898 4898 4898 4898 4898 4898 4898 4898 4898
## ==================================================================================================================================================================================
建模结果并不理想,相关性较弱,R^2最高也只有0.282, 原因可能是其他一些影响葡萄酒品质的因素并未包含在本数据集中,又或者是应该使用非线性模型。
图1展现白葡萄酒品质评分分布情况,由图中可以看出,大部分样品品质评分集中在5-7之间,品质评分为3和9的样品极少。
图2展现白葡萄酒密度与残余糖分含量间的关系,由图中看出两者呈明显线性关系,残余糖分越多的样品,其密度也相应越大,另外两者的皮尔森相关系数达0.839。
图3展示了乙醇、密度、残余糖分三者间的关系,绘图区右下角和左上角形成鲜明对比,残余糖分含量低的样品密度也相对较低,但是其乙醇含量往往较高。上图较好地验证了葡萄酒产生原理,在发酵过程中糖分逐渐被微生物利用,产生乙醇。
本次分析中我发现了一些有趣的情况,比如残余糖分和乙醇呈负相关,乙醇比例更高的葡萄酒密度更低且评分可能更高。我原本最想探索的是各理化指标对葡萄酒品质评分的影响并构建出模型,但是在双变量以及多变量分析过程中只发现了个别指标可能对品质评分有影响,并未获得比较理想的分析结果,有些遗憾。但是我想这可能也会是进行数据分析工作时比较常见的情况,对此应当有正确的认识,我也相信不断提升数据分析技能将会使以后的分析工作更加顺利。
在完成本报告的过程中,我更加熟悉了使用R语言进行探索性数据分析流程以及一些常用操作,使用了一些函数对数据进行整理,尝试绘制不同类型的图形并对其进行美化从而更好的展现可视化效果。与此同时,我也深深感到自己使用R语言不够熟练,R语言确实是一款很优秀的数据分析以及可视化软件,值得好好探索。今后需要继续深入学习,通过不断实践来提高。
数据集来源:
P. Cortez, A. Cerdeira, F.Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553.
参考资料:
http://blog.sina.com.cn/s/blog_8cad55d90102x3yg.html
https://www.douban.com/note/579291905/
http://wine.baike.com/article-1255727.html